CellPhoneDB_spatial 分析
前言
IMPORTANT
CellPhoneDB 是一个公开可用的人类配体-受体相互作用数据库,配合统计分析工具可用于推断单细胞或空间转录组数据中的细胞间通讯。CellPhoneDB_spatial 是专门针对空间转录组数据开发的版本,通过整合空间微环境信息,能够识别空间邻近细胞间的配体-受体相互作用,为理解组织微环境中的细胞通讯提供了强大工具。
在空间转录组学研究中,细胞通讯不仅受基因表达调控,其空间位置和微环境背景也对细胞间相互作用有重要影响。CellPhoneDB_spatial 通过整合细胞类型注释、基因表达数据和空间微环境信息,能够识别在特定空间环境中发生的配体-受体相互作用,揭示组织微环境中的细胞通讯网络。
CellPhoneDB_spatial 的核心功能
- 配体-受体数据库:包含约 3000 个手工整理的配体-受体相互作用对
- 多亚基复合物支持:准确表示异源复合物的配体和受体
- 空间微环境分析:基于空间微环境信息识别特定区域的细胞通讯
- 统计显著性检验:通过置换检验评估细胞通讯的统计显著性
- 丰富的可视化:提供点图、热图、圈图等多种可视化方式
本篇文档旨在为空间转录组学研究者提供一份详尽的 CellPhoneDB_spatial 技术指南,内容涵盖其基本原理、在 SeekSoul Online 云平台上的操作方法、结果解读、实战案例及常见问题,帮助您快速掌握并应用该工具。
CellPhoneDB_spatial 理论基础
CellPhoneDB_spatial 的核心思想是:通过整合配体-受体数据库、基因表达数据和空间微环境信息,利用统计方法推断空间邻近细胞间的配体-受体介导的细胞通讯,并通过置换检验评估其显著性。这一过程可以概括为以下几个主要步骤:
- 数据预处理:对表达矩阵进行质控和归一化
- 配体-受体对筛选:从数据库中筛选在数据中表达的配体-受体对
- 空间微环境整合:根据空间位置信息定义细胞的微环境归属
- 表达量计算:计算每个细胞群中配体和受体的平均表达量
- 统计显著性检验:通过置换检验评估配体-受体相互作用的统计显著性
- 空间特异性分析:识别在特定空间微环境中富集的细胞通讯

云平台操作指南
在云平台上,CellPhoneDB_spatial 分析流程被设计得直观易用。您无需编写代码,只需通过参数配置界面即可完成分析。

分析前的准备
IMPORTANT
CellPhoneDB_spatial 分析的成功与否,很大程度上取决于输入数据的质量和微环境定义的合理性。在开始分析前,请务必确认:
- 数据已完成预处理:您的空间转录组数据已经过标准的质控、降维、聚类和细胞类型注释。
- 微环境定义合理:确保每个细胞都被分配到合理的空间微环境中(通过空间聚类或空间域注释实现)。
- 细胞类型注释准确:细胞类型注释的准确性直接影响细胞通讯分析的结果。
- 样本选择合理:建议每个微环境至少包含 2 种以上的细胞类型。
参数详解
下表详细列出了云平台 CellPhoneDB_spatial 分析模块的主要参数及其说明。
| 界面参数 | 说明 |
|---|---|
| 任务名称 | 本次分析的任务名称,需以英文字母开头,可包含英文字母、数字、下划线和中文。 |
| 分组因子 | meta 的列名,例如 CellAnnotation,用于指定细胞类型注释列,必填。 |
| 细胞类型 1 | 基于 meta 的 col_celltype 列对应的对象,互作的细胞类型 1,多选。选择作为配体表达细胞的细胞类型。 |
| 细胞类型 2 | 基于 meta 的 col_celltype 列对应的对象,互作的细胞类型 2,多选。选择作为受体表达细胞的细胞类型。可与细胞类型 1 相同,表示分析细胞类型间的全部通讯。 |
| 筛选因子 | meta 的列名,例如 Sample,用于指定样本列,与“筛选对象”配合使用,必填。 |
| 筛选对象 | 基于 meta 的 col_sam 列的样本名,选择要分析的样本,必填。 |
| 微环境因子 | meta 的列名,微环境因子列名。例如空间聚类结果列名(如 clust_M1_lam0.6_k50_res0.4)或自定义的空间域注释列名。此参数用于定义哪些细胞属于同一空间微环境,CellPhoneDB 将只分析同一微环境中的细胞类型对。 |
| 物种 | 选择该分析流程数据对应的物种名称,目前支持人 (human) 和小鼠 (mouse)。注意:CellPhoneDB 数据库基于人类基因,小鼠数据需要使用同源基因转换。 |
| 分析方法 | 计算细胞互作方法选择,可选 statistical_analysis 或 degs_analysis。statistical_analysis 推荐用于空间数据,基于表达量统计检验;degs_analysis 需要提供差异基因列表,聚焦细胞类型特异性通讯。 |
| 转录因子路径 | 转录因子文件路径,非必填。若提供,文件的第一列为细胞类型,第二列为在该细胞类型中活跃的转录因子 (TF)。CellPhoneDB 将利用此信息突出显示下游 TF 活跃的相关/显著互作。支持 .txt 文件。 |
| 备注 | 自定义备注信息,可用于记录分析参数设置的原因或特殊说明。 |
重要注意事项
CAUTION
- 基因 ID 要求:必须使用人类基因符号 (HUMAN gene symbols),小鼠数据会自动转换
- 微环境必需:空间数据分析必须提供微环境因子,否则将作为普通单细胞数据分析
- 细胞数量要求:建议每种细胞类型至少有 10 个细胞
- 内存限制:大数据集可能需要较长分析时间
TIP
参数调试建议:
- 初次分析建议使用 statistical_analysis 方法
- 如果细胞类型很多,可以先选择部分感兴趣的细胞类型进行测试
- 微环境定义对结果影响很大,建议尝试不同的空间聚类参数
- 可以多次运行,使用不同的微环境定义或细胞类型组合
操作流程
- 进入分析模块:在云平台导航至“高级分析”模块,选择 "cellphonedb_spatial"。
- 创建新任务:为您的分析任务命名,并选择要分析的项目。
- 配置基本参数:
- 设置分组因子和细胞类型 1、细胞类型 2
- 设置筛选因子和筛选对象
- 配置空间参数:
- 设置微环境因子(空间聚类或空间域列名)
- 选择物种
- 配置方法参数:
- 选择分析方法 (statistical_analysis 或 degs_analysis)
- 可选:上传转录因子文件
- 提交任务:确认参数无误后,点击“提交”按钮,等待分析完成。
- 下载与查看:分析结束后,在任务列表中下载并查看生成的分析报告和结果文件。
结果解读
CellPhoneDB_spatial 的分析报告包含丰富的图表和数据文件,以下是对核心结果的详细解读。
结果文件列表
| 文件名 | 内容说明 |
|---|---|
statistical_analysis_means_*.txt | 配体-受体对在每个细胞类型对中的平均表达量 |
statistical_analysis_pvalues_*.txt | 配体-受体对在每个细胞类型对中的显著性 p 值 |
statistical_analysis_significant_means_*.txt | 显著的配体-受体对及其平均表达量 (p<0.05) |
statistical_analysis_deconvoluted_*.txt | 将多亚基复合物拆解后的配体-受体对信息 |
statistical_analysis_interaction_scores_*.txt | 配体-受体对的互作分数 |
cpdb_dotplot_*.png/pdf | 配体-受体对点图 |
cpdb_heatmap_*.png/pdf | 细胞类型间互作数量热图 |
cpdb_cc_dotplot_*.png/pdf | 按细胞通讯分类的点图 |
netVisual_circle_*.png/pdf | 细胞间互作网络圈图 |
niche_*_cpdb_heatmap_*.png/pdf | 每个微环境的特异性配体-受体对热图 |
配体-受体对点图

图表结构
- X 轴:细胞类型对(配体表达细胞 | 受体表达细胞)
- Y 轴:配体-受体对名称
- 点的大小:配体和受体的平均表达量 (means)
- 点的颜色:p 值的负对数 (-log10(p-value)),颜色越深表示越显著
解读要点
- 显著互作:点越大且颜色越深,表示该配体-受体对在该细胞类型对中表达量高且显著
- 细胞特异性:观察特定配体-受体对在哪些细胞类型对中显著表达
- 配体-受体对选择:图中通常展示前 50-100 个最显著的配体-受体对
- 生物学解读:结合文献和数据库,解读显著互作的生物学功能
点图只显示 p 值 <0.05 的显著配体-受体对。如果某些预期的互作未显示,可能是因为表达量低或未达到显著性阈值。细胞类型间互作热图

图表结构
- 行和列:不同的细胞类型
- 颜色强度:该细胞类型对之间显著的配体-受体对数量
- 数值:显示具体的互作数量
解读要点
- 互作强度:颜色越深,表示该细胞类型对之间的配体-受体互作越多
- 关键细胞对:识别互作数量最多的细胞类型对,这些可能是组织中的关键通讯轴
- 对称性:注意热图可能不对称,因为配体-受体相互作用有方向性
- 网络结构:整体观察组织中的细胞通讯网络拓扑
细胞间互作网络圈图

图表结构
- 圆环:不同颜色代表不同的细胞类型
- 连线:表示细胞类型间的配体-受体相互作用
- 连线粗细:与互作数量或强度成正比
- 连线颜色:与配体表达细胞类型颜色一致
解读要点
- 通讯枢纽:连线密集的细胞类型可能是组织中的通讯枢纽
- 互作方向:连线从配体表达细胞指向受体表达细胞
- 网络拓扑:整体观察细胞通讯网络的结构特征
- 关键节点:识别在网络中起关键作用的细胞类型
微环境特异性热图

图表结构
- 每个微环境一张图:展示该微环境特异性的配体-受体对
- 行:配体-受体对
- 列:该微环境中的细胞类型对
- 颜色:平均表达量或显著性
解读要点
- 微环境特异性:识别只在特定微环境中活跃的细胞通讯
- 空间异质性:比较不同微环境的细胞通讯模式差异
- 功能区域:结合组织学特征,理解不同空间区域的功能特点
- 疾病相关性:在疾病样本中,识别病变区域的特异性细胞通讯
数据表格解读
means 表格(平均表达量)
- 列:细胞类型对(格式:细胞类型 A|细胞类型 B)
- 行:配体-受体对(格式:配体_受体)
- 数值:该配体-受体对在该细胞类型对中的平均表达分数
- 解读:数值越大,表示配体和受体在相应细胞类型中的表达量越高
pvalues 表格(显著性 p 值)
- 列:细胞类型对
- 行:配体-受体对
- 数值:统计显著性 p 值(通过置换检验计算)
- 解读:p<0.05 表示该互作显著高于随机水平
significant_means 表格(显著互作)
- 只包含 p<0.05 的显著配体-受体对
- 最常用的结果文件
- 可直接用于下游分析和可视化
deconvoluted 表格(拆解的互作)
- 将多亚基复合物拆解为单个基因
- interacting_pair:配体-受体对名称
- partner A/B:配体和受体的具体基因
- gene_a/b:基因名称
- 用途:了解复合物中具体哪些基因参与互作
interaction_scores 表格(互作分数)
- 包含每个配体-受体对的评分
- rank:根据特异性评分的排名
- specificity:互作的细胞类型特异性得分
- 用途:识别最具特异性的细胞通讯
结果质量评估
良好结果的标志
- ✓ 识别到合理数量的显著配体-受体对(通常几十到几百个)
- ✓ 互作模式符合已知的生物学知识
- ✓ 不同微环境之间的通讯模式有明显差异
- ✓ 重要的配体-受体对(如 VEGF-VEGFR、TNF-TNFR 等)被识别出来
可能的问题及解决方案
问题 1:识别到的互作过少
- 原因:数据质量差、细胞数量不足、微环境定义不合理
- 解决:检查数据质量、增加细胞数量、调整微环境定义
问题 2:识别到的互作过多且噪音大
- 原因:置换次数不足、阈值设置不当
- 解决:增加置换次数(默认 1000 次)、使用更严格的 p 值阈值(如 p<0.01)
问题 3:不同微环境的结果相似
- 原因:微环境定义不当、细胞类型组成差异小
- 解决:重新定义微环境、确保微环境间有明显的细胞组成差异
应用案例
人类子宫内膜时空动态的细胞通讯分析
- 数据来源:Garcia-Alonso L. et al. Nature Genetics 2021
- 背景:研究开发了 CellPhoneDB v3.0,首次整合空间转录组数据分析子宫内膜微环境中的细胞间通讯网络,解析月经周期中的细胞通讯动态变化。
- 分析策略:使用 Visium 空间转录组数据,定义腔面、功能层和基底层三个空间微环境,在每个微环境中分别运行 CellPhoneDB 分析,识别空间特异性的配体-受体相互作用。
CellPhoneDB v3.0 分析结果

图 5:CellPhoneDB v3.0 分析配体-受体介导的上皮分化。a. CellPhoneDB v3.0 分析框架,整合空间细胞共定位信息。b. WNT 和 NOTCH 信号通路中受体和配体的示意图,展示多亚基复合物。c. 点图显示上皮、间质和成纤维细胞群中相关配体的表达及其在上皮亚群中的同源受体,箭头颜色对应信号通路。d. 早期增殖期 DKK1 (WNT 抑制剂) 的空间分布估计。e. 月经周期中上皮和间质亚群时空分布的模型:增殖期由 WNT 环境主导促进再生,分泌期 WNT 和 NOTCH 信号的空间分隔促进向纤毛和分泌谱系的高效分化。
核心发现
WNT 信号通路的空间分隔模式:WNT 信号在腔面、功能层和基底层三个微环境中呈现明显的梯度分布。腔面微环境 WNT 配体和受体高表达促进纤毛上皮分化,功能层 WNT 拮抗剂表达创造低 WNT 微环境促进分泌表型分化,基底层非经典 WNT 配体维持干细胞池。
NOTCH 信号通路的空间特异性:配体 JAG1 主要由腔面上皮细胞表达,受体 NOTCH2 在功能层腺体中表达增强,形成空间梯度。NOTCH 信号促进腺体上皮分化为分泌细胞。
微环境特异性的配体-受体互作网络:识别出数十个在特定微环境中显著富集的配体-受体对,上皮-间质通讯主要通过 WNT、NOTCH、TGF-β 和 EGF 通路介导。空间约束分析显著减少假阳性。
月经周期的时空调控模型:增殖期 WNT 信号主导促进组织再生,分泌期 WNT 和 NOTCH 信号的空间分隔实现精确的细胞分化调控。该模型为理解子宫内膜癌和子宫内膜异位症等疾病的发病机制提供线索。
注意事项与最佳实践
WARNING
避免过度解读:CellPhoneDB 结果是基于配体-受体表达数据的计算推断,不等于真实的细胞间相互作用。任何关键发现都需要后续的生物学实验(如配体-受体共定位、功能阻断实验等)来证实。
CAUTION
数据质量至关重要:
- 基因 ID 准确性:必须使用正确的人类基因符号,大小写敏感
- 微环境定义:微环境定义的合理性直接影响空间特异性分析的准确性
- 细胞类型注释:错误的细胞类型注释会导致错误的通讯推断
TIP
优化分析效果:
- 微环境优化:尝试不同的空间聚类参数,选择生物学意义最明确的微环境定义
- 文献验证:结合已知的配体-受体相互作用知识验证结果
- 多方法交叉验证:结合其他细胞通讯分析工具(如 CellChat、NicheNet)进行交叉验证
- TF 整合:提供转录因子活性信息,识别功能性的细胞通讯
NOTE
数据库版本:
- CellPhoneDB v5 数据库包含约 3000 个手工整理的配体-受体对
- 数据库只包含人类基因,其他物种需要使用同源基因转换
- 数据库定期更新,建议使用最新版本
结果验证策略
计算验证
- 表达一致性:检查配体和受体是否在预期的细胞类型中表达
- 空间一致性:验证互作的细胞是否在相同的微环境中
- 统计显著性:关注 p 值 <0.05 且平均表达量较高的互作
文献验证
- 已知互作:查阅文献,验证识别出的配体-受体对是否有文献支持
- CellPhoneDB 数据库:查看数据库中的文献证据和功能注释
- 信号通路:确认配体-受体对所属的信号通路是否在该组织中已知活跃
实验验证
- 配体-受体共定位:使用免疫荧光验证配体和受体在空间上的邻近性
- 功能验证:
- 配体刺激实验:外源添加配体,观察受体表达细胞的响应
- 受体阻断实验:使用抗体或小分子阻断受体,观察功能变化
- 基因敲除/敲低:验证配体或受体的功能重要性
常见问题解答 (FAQ)
Q1: CellPhoneDB_spatial 与 CellChat_spatial 有什么区别?
A: 主要区别在于:
- 数据库:CellPhoneDB 使用手工整理的配体-受体数据库(约 3000 对),CellChat 使用整合数据库(更全面但可能包含低置信度互作)
- 算法:CellPhoneDB 基于置换检验的统计方法,CellChat 使用质量作用定律建模
- 空间整合:CellPhoneDB 通过微环境文件整合空间信息,CellChat 通过距离因子整合
- 输出:CellPhoneDB 侧重于配体-受体对的识别,CellChat 侧重于信号通路和细胞角色分析
- 适用场景:两者可以互补使用,交叉验证结果
Q2: 为什么需要定义微环境?
A: 微环境定义的重要性:
- 生物学相关性:确保分析的细胞对在空间上是邻近的,避免假阳性
- 空间特异性:识别不同空间区域的特异性细胞通讯模式
- 功能解析:理解组织中不同功能区域的细胞相互作用
- 疾病研究:在疾病样本中,区分病变区域和正常区域的通讯差异
Q3: 如何选择细胞类型 1 和细胞类型 2?
A: 选择策略:
- 全面分析:细胞类型 1 和 2 选择相同的列表,分析所有可能的细胞类型对
- 定向分析:根据研究问题,选择特定的配体表达细胞(类型 1)和受体表达细胞(类型 2)
- 示例:研究免疫细胞如何调控上皮细胞,可将免疫细胞设为类型 1,上皮细胞设为类型 2
Q4: statistical_analysis 和 degs_analysis 如何选择?
A:
- statistical_analysis(推荐):
- 基于表达量的统计检验
- 不需要额外输入
- 适用于大多数场景
- 分析更全面
- degs_analysis:
- 基于差异基因的分析
- 需要提供差异基因列表
- 聚焦细胞类型特异性通讯
- 结果更保守
Q5: 为什么我的结果中某些已知的配体-受体对没有被识别?
A: 可能的原因:
- 表达量低:配体或受体的表达量低于检测阈值
- 未达显著性:虽然表达,但未通过置换检验的显著性阈值
- 数据库未收录:CellPhoneDB 数据库可能未收录该配体-受体对
- 基因名不匹配:基因名拼写错误或使用了非标准基因符号
- 物种差异:小鼠基因可能没有合适的人类同源基因
Q6: 如何解读 p 值和 mean 值?
A:
- p 值:通过置换检验计算,p<0.05 表示该互作显著高于随机水平
- mean 值:配体和受体平均表达量的均值,反映互作的强度
- 综合解读:理想的互作应该既显著 (p<0.05) 又有较高的表达量 (mean 值大)
- 注意:p 值显著不代表生物学重要性,需要结合表达量和生物学背景综合判断
Q7: 多亚基复合物如何处理?
A:
- 表达量计算:取所有亚基表达量的最小值
- 生物学原理:确保复合物的所有组分都表达,才认为该复合物功能性表达
- 示例:整合素受体 ITGA5_ITGB1 需要 ITGA5 和 ITGB1 都表达
- 结果展示:deconvoluted 表格中可以看到拆解后的单个基因信息
Q8: 转录因子文件有什么作用?
A:
- 功能注释:标注下游转录因子活跃的配体-受体互作
- 优先级排序:帮助识别功能性的细胞通讯(不仅表达,下游信号转导也活跃)
- 来源:可从 SCENIC、pySCENIC 等转录因子活性分析工具获得
- 非必需:这是一个可选参数,不提供也可以完成分析
Q9: CellPhoneDB 适用于哪些空间技术?
A: CellPhoneDB_spatial 适用于:
- 基于测序的空间转录组:Visium, Slide-seq, HDST 等
- 基于成像的空间转录组:MERFISH, seqFISH, Xenium 等
- 单细胞空间转录组:STARmap, FISSEQ 等
- 关键要求:需要有细胞类型注释和空间微环境定义
Q10: 如何引用 CellPhoneDB?
A: 请根据使用的版本引用相应文献:
- CellPhoneDB v5: Garcia-Alonso L. et al. Mapping the temporal and spatial dynamics of the human endometrium in vivo and in vitro. Nature Genetics (2021).
- CellPhoneDB 原始文献: Efremova M. et al. CellPhoneDB: inferring cell-cell communication from combined expression of multi-subunit ligand-receptor complexes. Nature Protocols 15, 1484–1506 (2020).
参考资料
[1] EFREMOVA M, VENTO-TORMO M, TEICHMANN S A, et al. CellPhoneDB: inferring cell-cell communication from combined expression of multi-subunit ligand-receptor complexes[J]. Nature Protocols, 2020, 15: 1484–1506.
[2] GARCIA-ALONSO L, et al. Mapping the temporal and spatial dynamics of the human endometrium in vivo and in vitro[J]. Nature Genetics, 2021, 53: 1698–1711.
[3] ARMINGOL E, OFFICER A, HARISMENDY O, et al. Deciphering cell-cell interactions and communication from gene expression[J]. Nature Reviews Genetics, 2021, 22: 71–88.
[4] BROWAEYS R, SAELENS W, SAEYS Y. NicheNet: modeling intercellular communication by linking ligands to target genes[J]. Nature Methods, 2020, 17: 159–162.
[5] JIN S, et al. Inference and analysis of cell-cell communication using CellChat[J]. Nature Communications, 2021, 12: 1088.
- Rao A., Barkley D., França G.S., Yanai I. Exploring tissue architecture using spatial transcriptomics. Nature 596, 211–220 (2021). doi: 10.1038/s41586-021-03634-9.
